钱志安教授主讲中文系(珠海)前沿讲坛第十七讲

Body
2019年4月2日19点,在中文系(珠海)红楼15号一楼会议室,成功举办了前沿讲坛第十七讲《大数据时代下的语言研究:以粤语为例》。主讲人钱志安教授就职于香港教育大学语言及现代语言系,现为人文学院副院长(研究及研究课程)、语言学及语言研究中心副总监、香港语言学学会会长(2018-2019)。主要研究课题包括粤语研究、社会语言学、篇章语言学、语料库语言学。2009年获得国际中国语言学学会(IACL)的青年学者奖。2012年,他构建了以二十世纪中期香港电影对白为内容的粤语语料库,提供实时的历时语料为粤语研究作出了卓越贡献。本场讲座由杨蓓副教授主持,贾智副教授、张晨迪、吕娜老师等参与了此次讲座。

钱志安教授首先介绍了这次讲座的两个关键词——大数据和粤语。他指出了信息时代的特点,信息数量剧增,以计算机为技术基础的信息处理具有高速、持续、精确、客观等优势,进一步引导同学们思考汉语专业和大数据之间的互动关系。例如手机交互软件中的语音辨析功能,当我们对着手机说出“zhu1 hai3”的语音时,手机会在屏幕上输出词组“珠海”。但是现代汉语中“Zhu1”一共有27字,“Hai3”一共有5字,两个音的组合一共有135种,最终是通过大数据的筛选才能正确输出词组。在语言研究领域,大数据的体现就是语料库,它以真实出现过的语言材料、以电子计算机为载体,量化数据和语境,在数据挖掘中发现新的语言现象。
随后,他介绍了粤语的历时研究所面临的挑战,以往大部分粤语书刊和研究材料都只有复印本,研究过程中费时费力且准确性不足,所以亟需附有检索功能的电子版语料,香港科技大学开发了两个早期粤语的语料库。另外,粤语的一些语法结构在二十世纪中期产生了变化,比较明显的是与事标记和是非问句的变化,这一时期出现了新旧形式共现的形式。钱教授实时播放了粤语电影中节选的包含是非问句的影像资料,同一部影片中就出现了早期粤语形式“你位千金有读书冇&aa3?”,现代粤语形式“嗰两头亲家(实情)有冇钱&gaa3?”和混合形式“有冇食过咩嘢炖嘢补品冇&aa3?”从粤语历时研究的历程来看,从Morrison (1828)到Chao (1947)的120年间均是以书面文字材料为主,之后到现今的研究中则多以田野调查的方式为主。这种研究方式虽然针对性更强更快速,但缺乏量化分析且收集的数据不一定准确。

针对以上粤语研究的现状,钱教授介绍了他主持开发的香港二十世纪中期粤语语料库。在语料来源上,选取非实时的粤语长片的对白进行文字转写,第一阶段(2012年)包括14套电影、125位说话人的近20万字的语料,以笔记本和MS Word为主要工具,数据处理方面主要包括分词和粤语拼音,检索功能包括汉字/词、粤语读音、说话人性别、电影名称和年份,检索结果以文字档形式呈现。第二阶段(2019年)即将于近期推出,包括60套电影、超过300位说话人的近77万字的语料,以ELAN为主要工具,数据处理上加入了词类标注,检索功能增加了词汇搭配、词汇比较和词性标注,检索结果新增了影片形式。
在应用领域,钱教授指出香港二十世纪中期粤语语料库在粤语教学、粤语研究、语言•文化•认知上都起到了重要作用。例如学习粤语需要掌握多少汉字?从语料库字数覆盖率的数据上看,学习首70个高频字就可以覆盖约50%的语料,首916个高频词有约90%覆盖率,首1140个高频字就能看懂约95%的语料。那么需要掌握多少词呢?语料库词语的覆盖率显示,首48个高频词有约50%覆盖率,首916个高频词有约90%覆盖率,首1829高频词有约95%覆盖率。句末助词是粤语比较独特的语法特点之一,数据库就统计出了10个最常用的句末助词,这些就是粤语句末助词学习的重点。他还指出字词不是单独存在的,词与词之间形成一种搭配/共现关系,语料库可以统计体貌标记与动词、名词与量词、动词与宾语的搭配关系,以及以词汇为中心的搭配词组关系网和搭配组合频率。
在语言•文化•认知领域,语料库帮助我们回答了歇后语的修辞功能问题,一是歇后语为什么像谜语一样,只说前半部,而重点其实是在没说出口的后半部;二是说话人如何肯定听话人能够解读歇后语的真正意义。关于第一个问题,通过语料库对歇后语的情感分析发现,228条四字格的歇后语中的185条(81%)带贬义,出于语用原则上的面子原则,贬义通常以委婉的方式进行表达,所以才只说前半部没有贬义的部分,隐去后半部含有贬义的部分。关于第二个问题,歇后语里提的人物和物件都应该是相关的特征比较突出的,为人所知的,如“铁拐李踢足球——一脚踢”,铁拐李跛脚的特征是十分显著且广为流传的。另外,数据库对于粤语数码博物馆的建设起到了积极的作用。
最后,钱志安教授在如何利用大数据做语言分析,以及对香港二十世纪中期粤语语料库所提供丰富的语料做不同层面的研究,这两个方面对讲座进行了总结。
杨蓓副教授高度评价了以文字材料为主的香港二十世纪中期粤语语料库对粤语教学和研究做出的卓越贡献,她指出语音材料的书面转写过程、语料整理和分析过程都十分辛苦,钱志安教授及其团队为此付出了艰辛的努力。香港二十世纪中期粤语语料库的应用前景也十分广泛。

最后的提问环节,同学们提出新旧语言形式的时代背景以及原因问题。钱教授十分中肯、客观地回答道语料库目前仍然处在描写和记录语料的阶段,但可能的原因是受其他方言的影响,还有待考证。张晨迪老师请教四字短语词频是怎样统计的以及建立语料库的软件。对于第一个问题,钱教授详细指出是以不分词的四字单元进行切分并筛选的,例如“我在珠海工作”分别考察“我在珠海、在珠海工、珠海工作”三个四字单元。数据收集时使用的软件是ELAN,但数据的转化和数据库功能的实现需要技术支持,仅靠语言工作者很难实现。在数据库功能设计上,可以参考COCA英语语料库。
钱志安教授的讲座主题新颖、内容实用,方法严谨而又具体,其深入浅出、生动活跃的讲座方式受到了在场老师、同学的热烈欢迎,第十七讲前沿讲坛在朗朗愉悦的讨论声中悄然结束。
